钛媒体 04-12 11:35

AI打榜，打的是什么？

📌 一句话：AI公司竞相在各类基准测试上刷分排名，背后是技术实力的较量，也可能隐藏着"刷题"式的评估作弊。

ChatGPT引发AI大模型浪潮后，百度文心、阿里通义、字节豆包等纷纷入场。评测基准从学术工具演变为商业战场，各家都想用数字证明"我的AI最强"。

打榜本无罪，但若为排名而"刷题作弊"，则偏离了技术创新的本质。真正的AI实力应体现在实际场景中的表现，而非榜单上的漂亮数字。行业需要更公正、更多元的评估体系，让用户为效果买单，而非为分数买单。 ---

📡 来源：钛媒体

📖 原文链接